学习到级别是一种广泛用于信息检索的机器学习技术,最近已应用于基于配体的虚拟筛查问题,以加速新药开发的早期阶段。排名预测模型根据序数关系学习,使其适合从各种环境中集成测定数据。现有的化合物筛选中排名预测的研究通常使用了一种名为RankSVM的学习对方法。但是,尚未将它们与梯度提升决策树(GBDT)基于梯度的学习对级别的方法进行比较或验证,这些方法最近越来越受欢迎。此外,尽管称为归一化折扣累积增益(NDCG)的排名指标被广泛用于信息检索,但它仅确定预测是否比其他模型的预测更好。换句话说,NDCG无法识别何时预测模型比随机结果差。然而,NDCG仍用于使用学习级学习的化合物筛选的性能评估。这项研究使用了具有排名损失函数的GBDT模型,称为Lambdarank和Lambdaloss,用于基于配体的虚拟筛选。使用回归将结果与现有的RankSVM方法和GBDT模型进行比较。我们还提出了一个新的排名指标,标准化的富集折扣累积增益(NEDCG),旨在正确评估排名预测的好处。结果表明,使用GBDT和RankSVM在不同数据集上的GBDT模型优于现有的回归方法。此外,NEDCG表明,回归预测与多户多户数据集中的随机预测相当,这证明了其对更直接评估复合筛选性能的有用性。
translated by 谷歌翻译